菌群代谢功能预测:宏基因组的一小步,多样性组成谱分析的一大步!
对菌群16S rRNA基因进行高通量测序,无疑是微生物组研究中最基础也是最常用的研究方法,能以较高的性价比揭示菌群的具体物种组成,从而解答“群落中有谁在?”的基本问题。然而,很多时候,我们更希望知道菌群行使的具体功能,也就是解释“它们在干什么?”。对菌群进行宏基因组测序自然是最佳解决方案,但如此高大上的研究方法,投入成本相对较多,分析方法也相对复杂。如果仅仅知道菌群组成,该怎么把物种的“身份”和它的“功能”对应起来呢?
由此,一款名为PICRUSt的菌群代谢功能预测利器应运而生,相关论文发表在权威期刊《Nature Biotechnology》上[1]。PICRUSt全称为“Phylogenetic Investigation of Communities by Reconstruction of Unobserved States”,可以通过16S rRNA基因序列,预测对应的细菌和古菌的代谢功能谱。
有了PICRUSt,相当于在菌群的“组成”和“功能”之间搭起了一座桥,即使只有16S rRNA基因的测序结果,我们一样可以获得宏基因组级别的研究结果!
1PICRUSt的基本原理
PICRUSt的总体思路说来很简单,主要分为3步:
1. 先根据已测微生物基因组的16S rRNA基因全长序列,推断它们的共同祖先的基因功能谱;
2. 对Greengenes数据库中其它未测物种的基因功能谱进行推断,构建古菌和细菌域全谱系的基因功能预测谱;
3. 最后,将测序得到的菌群组成“映射”到数据库中,对菌群代谢功能进行预测。该步骤具体通过以下方式实现:
i. 对测序获得的16S rRNA基因序列,进行“封闭式”参考OTU划分(Closed-reference OTU picking),通过与Greengenes数据库比对,寻找每一条测序序列的“参考序列最近邻居”,并归为参考OTU;
ii. 根据“参考序列最近邻居”的rRNA基因拷贝数,对获得的OTU丰度矩阵进行校正;
iii. 根据“参考序列最近邻居”对应的KEGG/EggNOG等基因功能谱数据,换算预测菌群的整体代谢功能。
2PICRUSt的特点
PICRUSt算法的一大特点,就是基于Greengenes的16S rRNA基因全长序列数据库,对菌群测序结果进行“封闭式”参考OTU划分。PICRUSt开发者对古菌和细菌域的大多数模式微生物的功能进行预测,让人欣喜的是,绝大多数的微生物预测结果与真实的基因功能谱非常接近(古菌预测精确度为0.94 ± 0.04,n = 103;细菌为0.95 ± 0.05,n = 2487)。也就是说,绝大多数情况下,PICRUSt的预测效果还是相当靠谱滴!
PICRUSt对细菌/古菌基因组预测的精确度
当然,若测序序列与Greengenes数据库中没有同源物种的参考序列,则对应的物种将无法被预测。也就是说,原始数据在分析过程中会有一定损失。此外,PICRUSt的特点也表明,它只能对已知微生物的已知功能进行功能预测,所以目前并不能完全代替宏基因组研究,但可以看作宏基因组研究的“近似”结果,在经费、资源有限的情况下,不失为一种理想的选择。
3PICRUSt的应用
在小编看来,PICRUSt对于菌群研究的贡献大大滴!首先,PICRUSt能从菌群组成数据解读潜在的功能,可谓充分发挥了16S rRNA基因测序简单、快速、物美价廉的优势;其次,PICRUSt对菌群功能的预测,可以帮助指导后续宏基因组De novo鸟枪法测序的实验设计,更合理地筛选用于后续研究的样本。
同时,PICRUSt分析的操作相当便捷,只需对测序数据进行“封闭式”参考OTU划分,并将得到的OTU丰度矩阵上传至Galaxy在线分析平台(http://huttenhower.sph.harvard.edu/galaxy/root?tool_id=PICRUSt_normalize),按提示操作就能得到预测结果啦!
416S+PICRUSt,研究新趋势
PICRUSt这一方法横空出世后,已有越来越多的研究开始采用这一方法预测菌群组成数据,相关论文发表数量逐年增长,表明该方法已得到大家广泛的认可。16S+PICRUSt,已成为发表高水平论文的必备技能;同时与宏基因组分析相比,更方便快捷,成本也更低,何乐而不为!
采用PICRUSt方法的菌群研究文献逐年增长
比如,今年发表在微生态学旗舰期刊《The ISME Journal》(影响因子9.328)的一篇论文《Cigarette smoking and the oral microbiome in a large study of American adults》[2]中,作者就通过PICRUSt预测了吸烟人群和未吸烟人群的口腔菌群,发现共有83个基因功能代谢通路存在显著差异,吸烟大大降低了碳水化合物和能量代谢、异型生物质降解等代谢通路的含量。
5结语
经过上面的讲解,大家是不是感受到了PICRUSt预测菌群功能的强大威力了呢?小编在这里想说,PICRUSt虽然厉害,但并不是万能,一方面由于它是基于16S rRNA基因的参考序列库,因此尚无法对真菌群落进行功能预测,而预测过程也会造成原始数据的部分损失,对于不同来源的菌群的预测效果也有所差异(一般对于人源微生物组的预测效果最好);同时,它并不能完全代替宏基因组研究(目前只能对已知微生物的已知功能进行功能预测),但可以对后续实验设计作出指导。
参考文献
1. Langille MGI, Zaneveld J, Caporaso JG, McDonald D, Knights D, et al. (2013) Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nature Biotechnology 31: 814-+.
2. Wu J, Peters BA, Dominianni C, Zhang Y, Pei Z, et al. (2016) Cigarette smoking and the oral microbiome in a large study of American adults. ISME J 10.1038/ismej.2016.37.
文案 产品运营部宏基因组产品线
派森诺生物
上海派森诺生物科技股份有限公司于2016年5月4日正式挂牌新三板(股票代码837170),是一家集科技服务、健康医学、产品研发为一体的国内知名高新技术企业。旗下子公司包括上海桑尼生物技术有限公司、上海派森诺医学检验所有限公司。现拥有一代(常规测序)、二代(高通量测序)和三代(单分子测序)等新型测序平台和相关仪器设备,同时拥有一支由多名基因组学和生物信息学专家带队的测序合成、产品研发及信息分析为一体的王牌技术团队。